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摘要 多 源 异 构 大 数据 时 代 下 ， 大 数据 呈现 出 交叉 性 、 多 元 性 、 变 化 性 等 新 特征 ， 更 广泛 领域 的 应 用 对 数据 
融合 产生 新 需求 ， 在 此 背景 下 数据 融合 的 内 涵 得 到 丰富 和 扩展 。 广 义 的 数据 融合 包含 对 数据 资源 的 融合 、 模 
型 方法 的 融合 及 决策 者 知识 和 经 验 的 融合 。 文 章 分 析 了 多 源 异 构 数 据 融 合 在 数据 层 、 信 息 层 和 决策 层 3 个 不 
同 融合 层次 的 特点 ， 探 讨 了 数据 融合 在 存储 、 使 用 、 分 析 技 术 、 数 据 管理 及 价值 确定 方面 可 能 面临 的 挑战 ， 
并 提出 了 相应 的 对 策 建 议 ， 为 企业 、 政 府 等 各 类 主体 高 效 管 理 数据 资源 ， 进 行 更 深入 的 数据 融合 分 析 提 供 
参考 。 
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在 大 数据 时 代 ， 海 量 数据 作为 各 领域 的 重要 资 。 推动 大 数据 自身 的 更 新 和 前 进 。 从 企业 产生 的 内 部 数 
源 ， 其 更 多 的 价值 有 待 被 挖掘 ， 更 大 的 潜能 有 待 释 — 据 在 生产 经 营 等 环节 中 蕴含 着 重要 价值 ， 到 个 人 产生 
放 。 此 外 ， 移 动 通信 设备 的 深度 普及 、 互 联网 的 全 面 ”的 数据 在 健康 管理 及 智慧 医疗 等 应 用 场景 发 挥 着 重要 

盖 ， 以 及 5G、 人 工 智能 CAD. 等 的 高 速 发 展 , 不断 H; 从 海量 数据 采集 困难 重重 到 社会 经 济 活动 随时 
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随地 产生 数据 司空 见 惯 ， 数字 已 赋 能 全 社会 、 各 领 
域 、 各 行业 产业 的 发 展 。 

在 科学 技术 进步 和 社会 发 展 变革 的 背景 下 ， 当 前 
大 数据 除了 拥有 巨大 的 体 量 ， 多 源 异 构 的 特点 也 充分 
凸显 ， 对 海量 数据 的 分 析 也 产生 了 许多 新 需求 和 新 挑 
战 。 因 此 ， 如 何 科 学 、 有 效 、 全 面 地 融合 多 种 来 源 、 
各 种 类 型 的 “ 硬 数据 ”和 “ 软 数据 "， 化 解 多 源 异 构 
大 数据 融合 在 理论 和 实践 中 的 难题 ， 使 数据 的 堆砌 变 
为 具有 价值 的 “黄金 ， 成 为 有 待 解决 的 重要 问题 。 


1 多 源 异 构 大 数据 新 特征 与 数据 融合 新 需求 


互联 网 连接 了 人 们 的 生活 、 企 业 的 生产 和 政府 的 
管理 ， 也 使 得 社会 各 参与 者 在 无 数 活动 中 产生 数据 。 
这 些 数 据 来 源 广 泛 ， 结 构 复 杂 多 样 ， 同 时 ， 数 据 可 获 
得 性 的 增强 也 使 更 多 领域 日 益 重 视 数据 资源 价值 的 控 
据 。 因 此 ,海量 数据 的 新 特征 及 更 多 领域 的 新 需求 ， 
促使 多 源 异 构 大 数据 融合 成 为 大 数据 研究 领域 的 重要 
内 容 。 

多 源 异 构 大 数据 呈现 的 新 特征 总 体 可 以 概括 为 : 


融合 ， 其 内 涵 为 组 合 和 处 理 多 来 源 的 数据 和 信息 ， 使 
其 优势 互补 、 排 除 噪声 、 化 解 矛 盾 ， 提 高 信息 的 完 豆 
性 和 可 信和 度 ， 得 到 比 单一 信息 更 准确 、 更 可 靠 的 估计 
或 决策 中。 信息 融合 的 模型 主要 包括 结构 模型 和 功能 
模型 。 结 构 模 型 描述 了 信息 融合 系统 的 工作 方式 ， 在 
融合 功能 的 部 署 上 分 为 集中 式 结构 、 分 布 式 结构 和 混 
合式 结构 中 。 功 能 模型 主要 对 信息 融合 系统 及 子 系统 
的 功能 作用 及 各 部 分 的 关系 进行 建 模 ， 包 括 JDL 模 型 


(Joint Directors of Laboratories) H, Omnibus f 7500. 


OODA 模型 (Observation, Orientation, Decision, Action ) 
AB SERE, JDL 改进 模型 外 对 多 元 信息 融合 任 
务 构建 了 6 级 功能 : 次 目标 估计 、 目 标 评估 、 态 势 评 
佑 、 影 响 评估 、 过 程 优化 、 认 知 优化 。OODA 模型 由 
观测 、 定 向 、 决 策 和 行动 4 部 分 组 成 ， 其 扩展 模型 可 
以 处 理 相 互 影响 的 信息 之 间 的 融合 外 。 信 息 融 合 模 式 
可 以 抽象 为 3 个 层级 ,分 别 是 数据 级 融合 、 特 征 级 融 
合 和 决策 级 融合 时。 数据 级 融合 主要 指 对 相同 介质 传 
感 器 收集 的 数据 直接 进行 融合 ; 特征 级 融合 是 指 先 从 
原始 数据 中 提取 特征 ， 然 后 对 它们 进行 融合 ; 决策 级 


交叉 性 、 多 元 性 、 变 化 性 和 共识 性 。 不 同 活动 、 不 同 
AL RS PARERE EIE BUR ER, KEBI BHE, PS 
数据 库 的 数据 具有 很 强 的 交叉 性 。 数 据 形 态 结构 也 呈 
现 多 样 化 ， 既 有 数字 、 表 格 等 结构 化 数据 ， 也 有 文 
本 、 图 片 、 声 音 、 视 频 等 非 结 构 化 及 半 结 构 化 数据 。 
此 外 ， 多 元 性 不 仅 是 数据 类 型 、 结 构 不 同 ， 而 且 是 数 
据 中 列 仿 的 内 容 和 知识 的 多 “维度 ”与 多 “粒度 ”， 
体现 了 数据 和 知识 间 复 杂 的 立体 关系 由。 数据 的 变化 
性 指数 据 随 着 时 间 的 推移 发 生变 化 。 数 据 的 共识 性 是 
站 人们 对 很 多 数据 之 间 的 关系 及 数据 和 知识 之 间 的 关 
系 已 经 达成 共识 ,这 些 关 系 和 知识 具有 普遍 适用 性 ， 
有 助 于 建立 起 数据 、 信 息 和 知识 间 的 关联 关系 ， 挖 掘 
更 多 知识 。 

挖掘 多 源 异 构 数据 中 的 信息 和 知识 并 将 其 转化 为 
价值 ， 离 不 开 数 据 融 合 。 过 去 的 数据 融合 也 称 为 信息 
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融合 则 是 对 特征 或 已 经 得 到 的 初步 结果 进行 更 高 层次 
的 融合 ， 得 出 更 综合 和 系统 的 决策 。 不 同 融合 层次 都 
有 大 量 方法 和 技术 ,包括 主 成 分 分 析 、Kalman 滤波 、 
贝 叶 斯 估计 、 机 器 学 习 、D-S 证 据 理论 、 智 能 计算 等 。 
从 数据 级 融合 到 特征 级 融合 再 到 决策 级 融合 ， 融 合 的 
层次 越 来 越 高 ， 计 算 量 和 精度 降低 ， 信 息 损失 增加 ， 
但 稳健 性 和 灵活 性 得 到 提升 。 多 元 信息 融合 的 应 用 主 
REER imu. A BeypUd. aci ERR 
域 ， 融 合 的 数据 以 传感器 产生 的 “ 硬 数据 ”为 主 。 

多 源 异 构 大 数据 对 数据 融合 的 新 需求 使 数据 融合 
在 理论 研究、 方法 技术 和 实际 应 用 中 都 迎 来 了 挑战 。 
当前 由 于 多 源 异 构 大 数据 在 全 领域 、 各 行业 的 渗透 和 
价值 的 发 挥 ， 数 据 挖掘 与 融合 的 应 用 延伸 到 企业 管 
理 、 政 府 治理 、 银 行 风险 防范 等 诸多 社会 经 济 问题 
中 ， 这 些 新 兴 的 应 用 场景 有 别 于 信息 融合 传统 的 应 用 
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领域 因此， 企业、 政府 等 众多 参与 主体 的 应 用 场景 
对 数据 融合 提出 了 新 需求 。 在 社会 经 济 和 管理 领域 
中 ， 数 据 来 源 更 具 复杂 性 和 开放 性 ， 研 究 问题 往往 参 
与 主体 较 多 ， 系 统 性 较 强 ， 存 在 大 量 直 接 关联 或 隐 性 
关联 的 数据 ， 与 传统 传感器 收集 的 数据 相 比 ， 预 设 数 
据 源 的 重要 性 可 能 降低 ， 开 发 和 确定 新 数据 变 得 重 
要 。 同 时 ， 社 会 活动 离 不 开 “ 人 ”的 参与 ， 因 此 充分 
考虑 与 “人 ”有 关 的 “ 软 因 素 ” 和 “ 软 数据 ”， 将 其 
与 其 他 “ 硬 数据 ”融合 分 析 ， 成 为 新 的 需求 。 在 数据 
融合 模式 上 ， 将 多 个 层级 的 融合 相 结合 而 非 单独 局 限 
于 某 个 层次 的 融合 ， 使 数据 融合 贯穿 于 数据 挖掘 全 过 
程 成 为 未 来 发 展 方向 。 此 外 ， 社 会 、 经 济 和 管理 领域 
的 应 用 场景 需要 强化 前 治 技术 与 领域 专家 知识 的 结 
合 ， 增 强 方法 工具 在 应 用 中 的 可 理解 性 及 和 实践 的 联 
系 具 有 重要 的 意义 。 


2 基于 WSR 的 多 源 异 构 大 数据 融合 研究 思路 


如 前 所 述 ， 鉴 于 当前 跨 媒体 、 跨 行业 等 多 源 异 构 
数据 的 交叉 性 、 多 元 性 、 变 化 性 和 共识 性 ， 要 实现 对 
形态 结构 各 异 的 数据 进行 统一 分 析 和 挖 气 ， 离 不 开 数 
据 融 合 。 李 爱 华 等 1 对 比分 析 了 信息 融合 的 3 个 层级 
和 商务 智能 中 “数据 、 人 信息、 知识”3 个 层次 的 关联 
和 区 别 ， 以 此 为 基础 ,借鉴 “ 物 理 一 事理 一 人 理 ” 
(WSR) 系统 科学 方法 论 的 思想 ， 提 出 了 广义 数据 融 
合 的 内 容 ， 将 其 贯穿 于 商务 智能 的 分 析 过 程 。 

WSR 系统 科学 方法 论 中 综合 考虑 了 系统 实践 活动 
中 “ 物 ”“ 事 "”“ 人 ”3 个 维度 ,强调 了 客观 世界 、 系 
统 组 织 和 人 的 动态 统一 和 紧密 联系 ,它们 三 者 构成 整 
体 ， 缺 一 不 可 5 “物理 ”是 对 现实 世界 的 组 成 、 属 
性 和 客观 规律 的 研究 ,“ 事 理 ” 是 解决 问题 的 方法 ， 
“人 理 ” 是 对 人 的 动态 活动 、 思 想 行为 及 和 环境 的 相 
互 影响 等 的 研究 。 在 社会 、 经 济 和 管理 等 领域 ， 人 是 
各 种 活动 的 重要 参与 者 ， 实 际 问题 的 解决 和 决策 制定 
有 赖 于 客观 状况 、 解 决 方式 ， 以 及 与 人 相关 的 因素 等 
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多 个 方面 ， 这 与 WSR 方 法 论 中 “ 物 ”“ 事 ”和 “人 ” 
形成 对 应 。 基 于 WSR， 本 文 提 出 的 广义 数据 融合 的 内 
涵 是 : 综合 运用 多 种 方法 ， 对 多 源 异 构 的 原始 数据 进 
行 挖 气 ， 将 得 到 的 内 涵 、 模 式 、 决 策 及 其 他 “ 软 因 
素 ” 等 进行 综合 、 全 面 地 处 理 和 分 析 "， 最 终 实 现 高 
效 的 融合 效果 ， 为 决策 提供 辅助 和 支持 。 广 义 多 源 异 
构 大 数据 融合 包含 数据 资源 的 融合 、 模 型 方法 的 融合 
和 决策 者 知识 和 经 验 的 融合 。 在 商务 智能 中 ,“ 数 据 ” 
是 通过 各 种 渠道 获取 的 、 未 经 加 工 的 原始 资源 ;“ 信 
息 ” 是 对 数据 初步 分 析 后 挖掘 得 到 的 潜在 特征 、 关 联 
和 规律 等 ;“ 知 识 ” 是 通过 进一步 推理 得 到 的 更 有 价 
值 的 结论 等 。 数 据 为 解决 问题 提供 了 原材料 ， 信 息 和 
知识 为 决策 制定 提供 了 依据 和 支持 。 由 于 基于 WSR 方 
法 论 的 广义 数据 融合 贯穿 于 商务 智能 分 析 “ 数 据 一 信 
息 一 知识 ”的 全 过 程 ， 因 此 可 以 划分 为 数据 层 融 合 、 
言 息 层 融合 和 知识 层 融 合 3 个 层次 (图 1)。 

WSR 在 多 源 异 构 数 据 层 融 合 主要 体现 在 数据 源 的 
确定 和 数据 的 收集 。 在 社会 治理 、 企 业 管 理 、 经 济 发 
展 、 风 险 管理 等 问题 场景 中 ， 由 移动 设备 、 网 络 等 收 
集 的 人 的 行为 活动 数据 发 挥 着 越 来 越 重 要 的 作用 ; 人 研 
究 问题 的 路 行业 、 路 领域 、 路 学 科 的 交叉 性 ， 以 及 多 
源 异 构 数 据 的 跨 媒 体 性 ， 大 大 提升 了 数据 源 的 数量 ， 
同时 也 增加 了 数据 源 选择 和 确定 的 难度 。 数 据 的 选择 
有 具有 一 定 的 主观 性 ， 针 对 同样 的 问题 ， 选 择 不 同 的 数 
据 可 能 有 不 同 角度 的 发 现 。 数 据 的 选取 需要 综合 考虑 
实际 问题 和 领域 专家 经 验 [”"。 因 此 ， 基 于 WSR 可 以 从 
“ 物 ”“ 事 ”“ 人 ”3 个 维度 出 发 对 数据 进行 选择 ， 即 客 
观 数据 、 行 为 活动 产生 的 数据 和 评价 、 观 点 、 情 绪 、 
判断 、 预 期 等 与 “人 ”密切 相关 的 数据 。 此 外 ， 多 源 
异 构 数据 转化 和 综合 性 指标 的 构建 也 是 数据 层 融 合 的 
内 容 。 结 构 化 、 半 结构 化 、 非 结构 化 、 不 同 粗细 粒 
BE. Sd. BG BEBE E BEER SEE ET. D 
此 ， 需 要 对 多 源 数 据 进行 转化 ， 通 过 聚合 、 关 联 、 特 
征 提 取 、 文 本 挖掘 、 计 算 新 变量 等 多 种 方法 技术 使 它 
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确定 数据 源 、 数 据 收集 关联 、 
聚合 、 转 换 、 指 标 构建 … 


数据 层 融合 


多 源 异 构 数据 


更 高 层次 的 知识 


个 


决策 融合 、 知 识 推理 
专家 意见 、 决 策 偏 好 … 


知识 层 融 合 


多 模型 、 方 法 的 综合 集成 与 领域 知识 结合 的 
模型 、 模 型 解释 性 


— s 


信息 层 融 合 


图 1 基于 “物理 一 事理 一 人 理 ”(WSR) 方法 论 的 商务 智能 分 析 场 景 中 数据 融合 的 3 个 层次 


Figurel Three levels of data fusion in business intelligence analysis scenarios based on WSR 


们 能 够 进行 统一 分 析 ， 为 信息 层 融 合 构建 综合 性 模型 
和 挖掘 深层 次 信息 提供 基础 。WSR 中 的 “人 理 ” 表 现 
为 数据 转换 和 指标 建立 过 程 中 的 可 理解 性 与 实际 
意义 。 

WSR 在 数据 融合 信息 层 的 应 用 不 仅 体现 在 将 多 种 
模型 方法 进行 综合 集成 ， 对 数据 层 融 合 结果 进行 分 
析 ， 还 体现 在 人 们 对 模型 方法 的 选择 ， 以 及 数据 科学 
技术 与 社会 、 经 济 等 领域 知识 、 原 理 和 方法 的 结合 。 
社会 治理 、 经 济 发 展 、 企 业 管理 领域 有 自身 特点 和 基 
本 的 理论 、 原 理 ， 数 据 融 合 的 技术 工具 不 能 脱离 原 有 
学 科 领 域 的 理论 基石 。 因 此 ， 在 方法 的 选择 上 需要 不 
断 探索 传统 方法 与 新 兴 技 术 互 相 结合 的 路 径 ， 寻 求 结 
果 准 确 性 和 可 解释 性 之 间 的 平衡 。 信 息 层 融合 “ 
理 ”中 模型 建立 的 常用 方法 包括 分 类 、 聚 类 、 关 联 规 
则 挖掘 等 机 器 学 习 、 深 度 学 习 和 人 工 智能 方法 ， 以 及 
多 种 方法 的 集成 模型 等 。 此 外 ， 数 据 融合 信息 层 中 方 
法 的 选择 与 “人 理 ” 密 切 相关 ， 在 解决 实际 的 社会 管 
理 问 题 时 ,需要 在 全 面 考虑 有 关 参 与 各 方 的 基础 上 ， 
采用 合适 的 方法 和 模型 ， 而 非 一 味 地 追求 方法 的 复杂 
和 结果 的 精确 。 

WSR 在 知识 层 融 合 中 的 应 用 主要 体现 在 最 终 的 决 
策 需 要 有 机 结合 “人 理 ”， 将 与 人 有 关 的 因素 与 客观 
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数据 分 析 结 果 相 融合 仍然 为 研究 的 热点 。 知 识 层 融 合 
的 “物理 ”是 从 信息 层 融 合 得 到 的 结果 ， 通 过 结合 
家 意见 、 决 策 者 偏好 等 更 多 因素 ， 通 过 采用 更 高 层次 
的 推理 、 挖 抉 方法， 将 低 阶段 融合 结果 再 次 进行 融合 
分 析 ， 得 到 深度 关系 和 可 领悟 的 知识 ， 实 现 需 求 的 满 
足 或 决策 的 支持 。 决 策 的 制定 和 知识 的 认 知 与 人 密切 
相关 ， 专 家 意见 、 决 策 者 偏好 、 社 会 环境 等 都 可 能 影 
响 最 终 的 结果 ， 因 此 “人 理 ” 在 数据 融合 知识 层 融合 
中 的 重要 性 不 可 轻视 。 


3 多 源 异 构 大 数据 融合 在 数据 应 用 环节 中 遇 
到 的 问题 和 挑战 


在 新 应 用 场景 中 ， 多 源 异 构 大 数据 融合 产生 的 新 
特点 促使 其 内 涵 得 到 扩展 和 延伸 ， 同 时 也 给 多 源 异 构 
大 数据 融合 在 存储 、 集 成 、 分 析 、 管 理 等 方面 带 来 新 
的 挑战 和 难题 。 

(1) 高 质量 的 数据 存储 问题 肥 待 解决 。 数 据 存储 
是 数据 分 析 的 基础 和 前 端 工作 ， 数 据 存储 越 有 效 ， 后 
续 的 数据 提取 、 预 处 理 和 分 析 等 将 越 便捷 和 高 效 ， 因 
此 数据 存储 在 整个 融合 分 析 过 程 中 十 分 重要 。 然 而 ， 
数据 存储 工作 本 喘 繁 琐 元 条 ， 当 前 爆炸 式 增长 数据 的 
多 源 异 构 性 更 给 数据 存储 增加 了 难度 。 面 对 繁杂 的 数 
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据 来 源 ， 数 据 存储 要 解决 的 问题 是 : @ 存储 哪些 数 
据 。 对 历史 数据 的 清理 和 去 除 可 以 节约 存储 空间 ， 但 
也 可 能 流失 有 价值 的 数据 资源 ， 因 此 需要 权衡 数据 重 
要 性 和 空间 占用 的 关系 。(C 如 何 存储 数据 。 针 对 多 源 
异 构 大 数据 ， 如 何 条 理 清 晰 存储 形态 各 异 的 数据 成 为 
不 可 避免 的 问题 。 存 储 的 数据 质量 也 至 关 重 要 。 数 据 
质量 显著 影响 分 析 的 结果 ， 如 果 不 重 视 存储 阶段 ， 导 
致 数据 保存 不 规范 甚至 出 现 错误 ， 会 严重 影响 后 续 分 
析 的 效率 和 准确 性 。 

(2) 数据 孤岛 与 使 用 壁 全 导致 数据 集成 融合 困难 。 
虽然 每 时 每 刻 都 有 大 量 数据 产生 ， 但 真正 有 效 使 用 这 
些 数据 仍 面临 困难 ， 大 部 分 数据 以 “数据 孤岛 ”的 形 
式 存在 ,彼此 之 间 互 不 连通 ， 数 据 的 利用 存在 明显 的 
壁垒 。 数 据 层 的 融合 与 集成 难度 有 2 个 方面 : 中 来 源 
于 主观 因素 ， 即 数据 的 使 用 权限 ， 很 多 内 部 数据 不 对 
外 开放 ， 难 以 获取 ; 中 来 源 于 客观 因素 ， 即 数据 由 不 
同业 务 活动 产生 ， 即 使 在 同一 个 企业 或 机 构 内 部 ， 数 
据 也 由 于 碎片 化 问题 、 不 同 的 结构 形式 和 存储 标准 
等 ， 导 致 蜂 部 门 数据 的 使 用 困难 。 这 些 因 素 增加 了 数 
据 资源 融合 的 难度 ， 不 利于 充分 挖掘 数据 价值 。 

(3) 多 源 、 异 构 大 数据 增加 了 不 同 场景 下 数据 分 
析 与 挖掘 的 难度 。 多 源 异 构 大 数据 给 数据 融合 技术 带 
来 许多 新 挑战 。 数 据 融合 不 仅 要 实现 多 源 异 构 数据 的 
转化 和 统一 集成 分 析 ， 还 需要 关注 数据 背后 的 隐 含 知 
识 ， 强 化 对 数据 意义 的 理解 ， 将 共识 性 的 知识 与 数字 
的 分 析 有 机 结合 。 在 融合 模型 和 方法 中 ,解决 跨 领 
域 、 跨 媒体 、 跨 语言 、 多 学 科 的 融合 仍然 为 研究 的 前 
沿 和 难点 。 数 据 融 合 的 对 象 以 数字 、 表 格 、 文 字 、 图 
片 、 视 频 、 音 频 ， 或 者 知识 、 规 律 、 模 型 等 多 形式 共 
存 ， 内 容 涉 及 不 同 领 域 ， 甚 至 可 能 包含 不 同 语言 ， 需 
要 充分 考虑 不 同 数据 资源 的 特点 和 不 同 领域 的 差异 及 
共性 ， 跨 语言 的 融合 则 有 赖 于 跨 语言 数据 关联 和 大 规 
模 知 识 库 。 此 外 ， 当 前 海量 、 多 源 、 异 构 数据 也 对 数 
据 处 理 和 分 析 速 度 提出 新 的 要 求 ， 如 很 多 价值 更 藏 在 
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高 频数 据 或 者 数据 流 中 ， 需 要 高 效 快速 地 实时 处 理 数 
据 技术 ; 同时 ， 数 据 融 合 方法 和 技术 由 于 数据 量 的 增 
加 也 需要 不 断 优化 。 

(4) 数据 的 维护 、 安 全 和 隐私 泄漏 是 当前 数据 管 
理 需要 关注 的 重点 。 多 源 异 构 大 数据 需要 高 性 能 的 网 
络 架 构 和 强大 的 数据 中 心 支 撑 ， 因 此 数据 仓库 和 数据 
中 心 的 运营 维护 也 将 成 为 挑战 。 数 据 量 庞大 、 动 态 演 
化 使 数据 库 及 知识 库 的 增 量 更 新 、 错 误 恢复 等 操作 难 
度 大 大 增加 ， 如 何 保证 数据 稳定 、 支 持 高 并 发 的 同时 
减少 服务 需 的 低 负载 情况 也 成 为 数据 中 心 维 护 的 重点 
内 容 。 数 据 融合 分 析 中 ， 需 要 提高 对 数据 安全 的 重视 
程度 。 硬 件 设备 设施 的 故障 、 网 络 黑客 的 攻击 等 都 可 
能 导致 数据 资源 的 丢失 。 因 此 ， 对 数据 的 多 副本 与 容 
灾 机 制 的 建立 需要 不 断 加 强 。 此 外 ， 信 息 安 全 问题 也 
得 到 广泛 关注 ， 人 们 对 隐私 的 保护 日 益 重 视 。 数 据 融 
合 增强 了 数据 间 关 联 性 ， 也 使 个 人 隐私 、 企 业 、 国 家 
安全 信息 等 面临 更 大 的 泄漏 风险 和 威胁 ， 因 此 在 分 析 
过 程 中 如 何 保护 敏感 信息 ， 如 何在 灵活 利用 数据 时 保 
障 数据 安全 也 是 数据 融合 未 来 研究 中 重要 的 课题 。 

(5) 数据 开放 与 共享 、 数 据 交换 以 及 数据 资产 定 
价 需要 进一步 关注 。 数 据 潜在 价值 的 发 挥 与 数据 的 开 
放 程 度 密切 相关 ， 往 往 开 放 程 度 越 高 的 数据 ， 越 能 和 
挖 据 出 更 多 价值 ， 应 用 于 更 多 场景 和 领域 。 然 而 ， 数 
据 的 开放 面临 很 多 复杂 问题 。J 由 于 商业 利益 、 行 业 
垄断 、 信 息 安 全 等 问题 ， 数 据 的 开放 受到 极 大 的 限 
制 。@ 对 数据 权 责 清晰 界定 存在 一 定 困 难 ， 例 如 个 人 
用 户 常 常 是 数据 的 生产 者 ， 也 是 数据 的 受益 人 。 实 际 
中 数据 所 有 者 和 权利 往往 不 断 发 生变 化 ， 所 有 者 及 其 
权利 的 界定 尚未 达成 明确 的 共识 。G@) 缺乏 数据 共享 相 
关 的 完善 的 政策 法 规 也 制约 了 数据 的 开放 。 数 据 的 价 
值 越 来 越 受 到 重视 ,数据 的 交换 、 交 易 及 相关 市 场 随 
之 产生 ， 如 何 界定 数据 交易 价值 ， 维 护 交 易 行 为 的 安 
全 和 良性 发 展 ， 保 障 个 人 、 组 织 和 国家 的 合法 权益 ， 
成 为 多 源 异 构 大 数据 时 代 的 新 挑战 。 
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4 多 源 异 构 大 数据 融合 发 展 的 思 


对 于 多 源 异 构 大 数据 ， 从 复杂 系统 的 研究 视角 来 
说 ， 数 据 是 客观 存在 的 “物理 ”、 融 合 不 同 数据 的 方 
法 则 是 “事理 ”、 对 多 源 异 构 大 数据 的 管理 则 和 “人 
理 ” 联 系 密切 。 因 此 ， 针 对 多 源 异 构 数 据 在 存储 、 使 
用 、 分 析 、 维 护 等 方面 存在 的 挑战 ,借鉴 WSR3 个 维 
度 协 调 统一 的 思想 ， 从 数据 、 方 法 和 管理 3 个 方面 针 
对 数据 融合 在 应 用 中 的 挑战 提出 了 3 点 思考 (图 2)。 

(1) 从 数据 角度 上 看 ， 继 续 优 化 采集 和 存储 。 对 
于 数据 巨大 、 结 构 类 型 复杂 的 数据 而 言 ， 存 储 和 数据 
库 建 设 是 复杂 的 工程 。 首 先 要 明确 业务 需求 ， 发 挥 数 
据 工程 师 和 领域 专家 、 业 务 人 员 的 共同 作用 ， 开 发 大 
数据 应 用 场景 ， 这 有 赖 于 对 客观 数据 本 身 特点 (也 即 
“物理 ”) 的 深入 分 析 ， 对 “人 理 ” 的 充分 理解 ， 以 
及 数据 和 人 们 需求 之 间 的 联系 与 协调 。 数 据 的 存储 不 
能 仅 局 限于 当前 的 需求 ， 由 于 技术 的 进步 和 业务 的 更 
新 ， 新 的 需求 和 潜在 需求 会 不 断 产生 ， 可 以 基于 WSR 
的 “ 物 ”“ 事 "”“ 人 ”3 个 维度 确定 数据 存储 资源 。 此 
外 ， 对 跨 媒 体 多 源 异 构 大 数据 的 收集 和 存储 需要 更 先 
进 的 “事理 ”。 在 数据 融合 的 新 需求 下 ， 要 进一步 强 
化 数据 库 的 建设 和 维护 ， 在 数据 存储 时 考虑 数据 的 多 


源 异 构 性 ， 实 现 对 结构 化 数据 、 半 结构 化 和 非 结 构 化 
数据 的 兼容 ， 建 立 数据 融合 溯源 机 制 ， 从 而 提高 数据 
库 增 量 更 新 和 局 部 修改 的 灵活 性 与 简便 性 。 高 效 、 高 
质量 的 数据 存储 是 大 数据 融合 分 析 的 基石 ， 数 据 的 存 
储 需 要 最 大 限度 地 为 数据 的 使 用 提供 便利 ， 清 晰 的 格 
式 、 统 一 的 标准 等 有 利于 高 效 的 数据 调用 、 处 理 、 分 
析 、 更 新 和 维护 等 ， 能 够 极 大 地 节约 资源 和 成 本 。 
(2) 从 方法 上 看 ， 需 要 多 维度 提升 数据 融合 效果 。 
提升 海量 多 源 异 构 数据 的 融合 效果 ， 有 赖 于 硬件 设备 
和 技术 的 共同 进步 。 复杂 结 构 、 数 量 庞 大 数据 和 信息 
的 融合 对 硬件 设备 提出 了 更 高 的 要 求 ， 提 高 硬件 设备 
的 性 能 ,完善 相关 基础 设施 的 建设 ,能够 为 未 来 进 一 
步 大 数据 融合 的 发 展 葛 定 坚实 的 基础 。 在 融合 方法 方 
面 ， 不 断 进行 技术 创新 ， 针 对 数据 层 融 合 、 信 息 层 融 
合 和 决策 层 融 合 各 层 的 特点 、 区 别 和 需求 ， 对 原 有 算 
法 、 模 型 等 进行 改进 、 集 成 和 融合 。 充 分 借鉴 多 学 科 
的 思维 ， 从 不 同 角度 获取 处 理 多 源 数据 、 融 合 多 元 知 
识 的 启示 。 此 外 ,加强 交叉 学 科 人 才 的 培养 ， 在 数据 
融合 的 理论 研究 和 实际 运用 中 ， 充 分 发 挥 数据 科学 
家 、 领 域 专家 、 领 域 知 识 库 的 共同 作用 ， 形 成 “1+1> 
2” 的 互补 优势 。 
(3) 从 管理 角度 看 ， 


需要 建立 共享 机 制 ， 保 障 数 


Ww S R 
多 源 异 构 、 大 数据 要 素 、 享 和 安全 保障 (法 律 法 规 、 多 部 门 协 调 合作 
NER i 大 数据 价值 政策 规定 、 物 理 隔离 ) 建 共 治 数据 融合 管理 
平衡 数据 价值 与 信息 安全 ， 充 分 发 挥 “ 人 理 ” 作 用 
: 多 源 异 构 、 大 数据 、 计 算 机 等 融合 算法 方法 交叉 学 科 、 人 才 培 养 
事理 S ， 硬件 、 计 算 设 备 数据 层 、 模 型 层 、 决 策 层 数据 融合 分 析 方法 
多 维度 提升 数据 融合 分 析 方法 效果 
| 源 异 构 、 采集 存储 、 TERA 明确 需求 、 深 控 应 用 
"T" 多 源 异 构 、 大 数据 采集 存储 、 数 据 库 构建 及 维护 HARR RZE r A 


数据 采集 和 存储 
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图 2 基于 “物理 一 事理 一 人 理 ”(WSR) 的 数据 融合 发 展 的 思考 
Figure2 Thinking on development of data fusion based on WSR 
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据 开 放 和 数据 安全 。 当 前 数据 作为 一 种 新 兴 的 要 素 


, 


能 够 产生 越 来 越 多 的 价值 ， 无 论 企业 还 是 政府 ， 都 日 
益 提 高 对 数据 的 重视 程度 ， 不 断 增 强大 数据 管理 ， 提 
出 与 时 俱 进 的 数字 化 发 展 战 略 。 因 此 ， 如 何 充 分 、 高 
效 、 安 全 的 实现 数据 价值 成 为 重要 的 问题 。 数 据 价值 
的 发 挥 和 潜能 的 释放 离 不 开 数 据 的 开放 和 共享 ， 而 数 
据 的 开放 不 可 避免 影响 数据 的 安全 。 因 此 ， 需 要 全 
面 、 综 合 考虑 各 方 利 益 ， 建 立 健全 数据 共享 机 制 ， 不 


断 完 善 相关 法 规 政策 ， 为 数据 共享 、 数 据 安 全 等 提供 


强 有 力 的 法 规 保障 ， 实 现 数 据 共享 的 同时 遏制 数据 滥 
用 ， 建 立 可 持续 发 展 的 良性 数据 共享 生态 系统 。 保 护 
数据 与 信息 的 安全 还 可 以 采取 物理 隔离 与 权限 控制 相 
结合 的 方法 ， 通 过 隔离 防止 非法 访问 ; 研究 降低 隐私 
泄漏 风险 的 策略 和 评 佑 模型 ， 及 时 进行 风险 预警 和 保 
护 策略 更 新 ; 强化 大 数据 网 络 安全 的 构建 等 。 在 多 源 
异 构 数 据 融 合 管理 中 ,“ 人 理 ” 至 关 重要 ， 连 接 数 据 
孤岛 、 打 破 数 据 壁 人 至， 离 不 开 各 个 部 门 之 间 高 效 的 沟 
通 和 协同 合作 。 大 数据 共享 生态 系统 需要 全 社会 各 主 
体 参与 共 建 共 治 ， 才 能 实现 数据 共享 、 利 益 保护 、 安 
全 保障 的 良性 环境 ， 为 未 来 数据 融合 的 发 展 和 数据 价 


值 的 增长 提供 基石 。 


5 结语 


在 新 兴 应 用 场景 下 ， 多 源 异 构 大 数据 融合 在 数据 
层 、 信 息 层 和 知识 层 中 有 了 新 的 特点 和 内 涵 ， 借 鉴 


WSR 系统 科学 方法 论 ， 综 合 物 、 事 、 人 3 个 维度 对 数 


据 融 合 的 各 个 层次 进行 分 析 和 研究 ， 有 利于 更 好 地 外 


f 


决 多 源 异 构 数据 融合 问题 ， 为 决策 提供 更 具 综 合 性 的 


文 持 。 数 据 融 合 对 人 类 各 怠 数据 的 能 力 提 出 新 挑战 


, 


使 数据 在 存储 、 使 用 、 管 理 等 多 个 方面 产生 了 新 的 难 
题 ， 但 也 为 人 们 获得 更 为 深刻 、 系 统 和 综合 的 洞察 能 


力 以 及 更 充分 的 数据 价值 挖掘 和 利用 ， 提 供 了 巨大 的 


空间 与 潜力 。 
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Abstract In the era of multi-source heterogeneous big data, big data presents new features such as cross, diversity and variability. 
The applications of big data in a wider range of fields have new requirements for data fusion. Under this background, the connotation 


of data fusion is enriched and expanded. The generalized data fusion includes the fusion of data resources, the fusion of model 
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methods, and the fusion of decision-makers' knowledge and experience. This study analyzes the characteristics of multi-source 
heterogeneous data fusion at three different fusion levels: data level, information level and decision level, and discusses challenges for 
data fusion in storage, application and analysis technology, data management as well as value determination. What's more, 
corresponding suggestions are putted forward, which benefit for enterprises, government and other entities to effectively manage data 
resources and provide reference for more in-depth data fusion analysis. 
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